这项研究表明,与传统的基于变压器编码器的模型相比,可以以更灵活的方式以更灵活的方式使用生成的大语言模型来用于DNA序列分析和分类任务。虽然基于编码器的模型(例如DNABERT和核苷酸变压器)在DNA序列层化中表现出了很大的性能,但在此领域中尚未广泛地使用了基于变压器解码器的构模型。这项研究评估了如何有效地生成大语言模式使用各种标签处理DNA序列,并在提供附加文本信息时分析性能的变化。实验是在抗菌分辨率基因上进行的,结果表明,当序列和文本信息均不合格时,大型语言模型可以提供综合或可能更好的预测,降低灵活性和准确性。本工作中使用的代码和数据可在以下GitHub存储库中获得:https://github.com/biocomgit/llm4dna。
![arxiv:2503.04413v1 [CS.CL] 2025年3月6日PDF文件第1页](/bimg/4/4582acdc19d91c4a4204445db267e725a3dc0fad.webp)
![arxiv:2503.04413v1 [CS.CL] 2025年3月6日PDF文件第2页](/bimg/b/b47ca186fa6734e7558386531357904e4578bfde.webp)
![arxiv:2503.04413v1 [CS.CL] 2025年3月6日PDF文件第3页](/bimg/1/1c5ffc7882c0c4e3b025a7cd7d1c3298ed4bfcad.webp)
![arxiv:2503.04413v1 [CS.CL] 2025年3月6日PDF文件第4页](/bimg/d/dbc5d1c6fa672c58d0ac89933db9abd0d3d318ba.webp)
![arxiv:2503.04413v1 [CS.CL] 2025年3月6日PDF文件第5页](/bimg/1/1f0dffa6095e5266fbc818fa898a7cbb952b78e7.webp)
